人眼目光在传递信息,交流意图和理解他人的心理状态方面起着重要作用。先前的研究表明,机器人的目光也会影响人类在互动过程中的决策和策略。然而,有限的研究已经在人类机器人相互作用方案中培训了针对基于凝视数据的人形机器人。考虑到凝视会影响社会交流的自然性并改变了观察者的决策过程,应将其视为人类机器人互动中的关键组成部分。为了研究机器人凝视对人类的影响,我们提出了一种体现的神经模型,用于进行类似人类的凝视转移。这是通过扩展社会关注模型并在吸引人的数据上训练它来实现的,该数据通过观看人类玩游戏而收集。我们将比较在人类合作游戏中采用不同凝视策略的机器人面前的人类行为表现。
translated by 谷歌翻译
Video-Text检索(VTR)是多模式理解的一项有吸引力但具有挑战性的任务,该任务旨在在给定查询(视频)的情况下搜索相关的视频(文本)。现有方法通常采用完全异构的视觉文本信息来对齐视频和文本,同时缺乏对这两种模式中均匀的高级语义信息的认识。为了填补这一差距,在这项工作中,我们提出了一个新颖的视觉语言对准模型,名为VTR Hise,该模型通过合并显式高级语义来改善跨模式的表示。首先,我们探讨了显式高级语义的层次结构属性,并将其进一步分为两个级别,即离散的语义和整体语义。具体来说,对于视觉分支,我们利用了现成的语义实体预测器来生成离散的高级语义。同时,采用训练有素的视频字幕模型来输出整体高级语义。至于文本方式,我们将文本分为三个部分,包括发生,动作和实体。特别是,这种情况对应于整体高级语义,同时动作和实体代表离散的语义。然后,利用不同的图推理技术来促进整体和离散的高级语义之间的相互作用。广泛的实验表明,借助明确的高级语义,我们的方法在包括MSR-VTT,MSVD和DIDEMO在内的三个基准数据集上实现了优于最先进方法的卓越性能。
translated by 谷歌翻译
本文旨在使用基于生成对抗网络的物理信息深度学习(PIDL)来量化交通状态估计(TSE)的不确定性。焦点的不确定性来自基本图,换句话说,从交通密度到速度的映射。量化TSE问题的不确定性是表征预测的交通状态的鲁棒性。自成立以来,生成的对抗网络(GAN)已成为流行的概率机器学习框架。在本文中,我们将使用随机交通流量模型为基于GAN的预测提供信息,并为TSE开发基于GAN的PIDL框架,称为“ Physgan-Tse”。 )数据集,与纯GAN模型或纯交通流模型相比,此方法对不确定性定量更为强大。两个物理模型,Lighthill-Whitham-Richards(LWR)和AW-Rascle-Zhang(ARZ)模型,将其作为物理学的物理成分进行比较,结果表明,基于ARZ的Physgan的性能比基于LWR的物理学更好。
translated by 谷歌翻译
本文提出了动态系统的不确定性定量(UQ),这是一种基于物理信息的生成对抗网络(GAN)。流动流基地采用标准化流程模型作为发电机,以明确估计数据的可能性。对该流模型进行了训练,以最大程度地提高数据的可能性并生成可以欺骗卷积歧视者的合成数据。我们使用先前的物理信息(所谓的物理学深度学习(PIDL))进一步正规化了这一训练过程。据我们所知,我们是第一个为UQ问题提供流动,GAN和PIDL的集成的人。我们采用交通状态估计(TSE),旨在使用部分观察到的数据来估计流量变量(例如,交通密度和速度),以证明我们提出的模型的性能。我们进行数值实验,其中应用了所提出的模型来学习随机微分方程的解决方案。结果证明了所提出的模型的鲁棒性和准确性,以及学习机器学习替代模型的能力。我们还在现实世界数据集(NGSIM)上对其进行了测试,以证明所提出的流量流可以胜过基线,包括纯流程模型,物理信息信息流量模型和基于流量的GAN模型。
translated by 谷歌翻译
从\ emph {nocedended}点云中重建3D几何形状可以使许多下游任务受益。最近的方法主要采用神经网络的神经形状表示,以代表签名的距离字段,并通过无签名的监督适应点云。但是,我们观察到,使用未签名的监督可能会导致严重的歧义,并且通常会导致\ emph {意外}故障,例如在重建复杂的结构并与重建准确的表面斗争时,在自由空间中产生不希望的表面。为了重建一个更好的距离距离场,我们提出了半签名的神经拟合(SSN拟合),该神经拟合(SSN拟合)由半签名的监督和基于损失的区域采样策略组成。我们的关键见解是,签名的监督更具信息性,显然可以轻松确定对象之外的区域。同时,提出了一种新颖的重要性抽样,以加速优化并更好地重建细节。具体而言,我们将对象空间弹并分配到\ emph {sign-newand}和\ emph {sign-unawern}区域,其中应用了不同的监督。此外,我们根据跟踪的重建损失自适应地调整每个体素的采样率,以便网络可以更多地关注复杂的拟合不足区域。我们进行了广泛的实验,以证明SSN拟合在多个数据集的不同设置下实现最新性能,包括清洁,密度变化和嘈杂的数据。
translated by 谷歌翻译
封闭在野外的脸部图像中非常常见,导致面部相关任务的性能劣化。虽然致力于从面部图像中去除闭塞的努力,但遮挡的不同形状和纹理仍然挑战当前方法的稳健性。结果,目前的方法依赖于手动遮挡掩模或仅适用于特定的闭塞。本文提出了一种基于面部分割和3D面重建的新型面部去遮挡模型,其自动除去甚至模糊边界,例如,毛发。,毛发。所提出的模型包括3D面部重建模块,面部分割模块和图像生成模块。对于前两者预测的面部和遮挡掩模,图像生成模块可以忠实地恢复缺失的面部纹理。为了监督培训,我们进一步构建了一个大型遮挡数据集,双手动标记和合成闭塞。定性和定量结果证明了该方法的有效性和稳健性。
translated by 谷歌翻译
由于Covid-19大流行,机器人可以被视为任务中的潜在资源,如帮助人们从远程工作,维持社会疏散和改善精神或身体健康。为了提高人机互动,通过在复杂的真实环境中处理多个社会线索,机器人必须变得更加社交。我们的研究采用了凝视触发的视听跨透视整合的神经毒性范例,使ICUB机器人表达人类的社会关注反应。起初,在37名人体参与者进行行为实验。为了提高生态有效性,设计了一个具有三个蒙面动画头像的圆桌会议场景,其中包括能够进行凝视偏移的中间的一个,以及能够产生声音的其他两个。凝视方向和声音位置是一致或不一致的。掩模用于覆盖除了头像之外的所有面部视觉线索。我们观察到,阿凡达的目光可以在视听通道条件下具有更好的人类性能来引发跨型社会关注,而不是在不一致状态。然后,我们的计算模型,喘气,培训,以实现社会提示检测,视听显着性预测和选择性关注。在完成模型培训之后,ICUB机器人被暴露于与人类参与者相似的实验室条件,表明它可以将类似的关注响应作为人类的同时性和不协调性表现进行复制,而人类表现仍然优越。因此,这种跨学科工作提供了对跨型社会关注机制的新见解以及如何在复杂环境中为机器人建模的机制。
translated by 谷歌翻译
Sensory and emotional experiences such as pain and empathy are essential for mental and physical health. Cognitive neuroscience has been working on revealing mechanisms underlying pain and empathy. Furthermore, as trending research areas, computational pain recognition and empathic artificial intelligence (AI) show progress and promise for healthcare or human-computer interaction. Although AI research has recently made it increasingly possible to create artificial systems with affective processing, most cognitive neuroscience and AI research do not jointly address the issues of empathy in AI and cognitive neuroscience. The main aim of this paper is to introduce key advances, cognitive challenges and technical barriers in computational pain recognition and the implementation of artificial empathy. Our discussion covers the following topics: How can AI recognize pain from unimodal and multimodal information? Is it crucial for AI to be empathic? What are the benefits and challenges of empathic AI? Despite some consensus on the importance of AI, including empathic recognition and responses, we also highlight future challenges for artificial empathy and possible paths from interdisciplinary perspectives. Furthermore, we discuss challenges for responsible evaluation of cognitive methods and computational techniques and show approaches to future work to contribute to affective assistants capable of empathy.
translated by 谷歌翻译
本文回顾了关于压缩视频质量增强质量的第一个NTIRE挑战,重点是拟议的方法和结果。在此挑战中,采用了新的大型不同视频(LDV)数据集。挑战有三个曲目。Track 1和2的目标是增强HEVC在固定QP上压缩的视频,而Track 3旨在增强X265压缩的视频,以固定的位速率压缩。此外,轨道1和3的质量提高了提高保真度(PSNR)的目标,以及提高感知质量的2个目标。这三个曲目完全吸引了482个注册。在测试阶段,分别提交了12个团队,8支球队和11支球队,分别提交了轨道1、2和3的最终结果。拟议的方法和解决方案衡量视频质量增强的最先进。挑战的首页:https://github.com/renyang-home/ntire21_venh
translated by 谷歌翻译
本文开发了用于多交叉路口自适应交通信号控制(TSC)的分散增强学习(RL)方案,称为“CVlight”,其利用从连接的车辆(CVS)收集的数据。国家和奖励设计促进了代理商之间的协调,并考虑由CVS收集的旅行延误。提出了一种新颖的算法,非对称优势演员 - 评论家(EB-A2C),其中CV和非CV信息都用于培训批评网络,而仅使用CV信息来执行最佳信号定时。综合实验表明,CVlight的优越性在一个2×2合成道路网络下的最先进的算法,各种交通需求模式和穿透速率。然后,学习的政策被可视化以进一步展示ASYM-A2C的优点。采用火车前技术来提高CVlight的可扩展性,这显着缩短了培训时间,并在5×5路网络下表现出性能的优势。在美国宾夕法尼亚州宾夕法尼亚州州学院的2×2路网络上进行了一个案例研究,以进一步展示了在现实世界方案下所提出的算法的有效性。与其他基线模型相比,训练有素的CVlight代理可以仅基于CV数据有效地控制多个交叉点,达到最佳性能,特别是在低CV渗透率下。
translated by 谷歌翻译